House data

1978년에 해리슨과 루빈펠드가 수집한 보스턴 교외 지역의 주택 정보
CRIM: 도시의 인당 범죄율
ZN: 2만 5,000 평방 피트가 넘는 주택 비율
INDUS: 도시에서 소매 업종이 아닌 지역 비율
CHAS: 찰스 강 인접 여부(강 주변=1, 그 외=0)
NOX: 일산화질소 농도(10ppm)
RM: 주택의 평균 방 개수
AGE: 1940년 이전에 지어진 자가 주택 비율
DIS: 다섯 개의 보스턴 고용 센터까지 가중치가 적용된 거리
RAD: 방사형으로 뻗은 고속도로까지 접근성 지수
TAX: 10만 달러당 재산세율
PTRATTIO: 도시의 학생-교사 비율
B: 1000(Bk-0.63)^2, 여기서 Bk는 도시의 아프리카계 미국인 비율
LSTAT: 저소득 계층의 비율
MEDV: 자가 주택의 중간 가격(1,000 달러 단위)
import pandas as pd
df=pd.read_csv('https://raw.githubusercontent.com/rickiepark/python-machine-learning-book-3rd-edition/master/ch10/housing.data.txt',header=None, sep='\s+')
df.columns=['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'OTRATIO', 'B', 'LSTAT', 'MEDV']
df.head()
lin_regplot
import matplotlib.pyplot as plt
def lin_regplot(X, y, model):
plt.scatter(X, y, c='steelblue', edgecolor='white', s=70)
plt.plot(X, model.predict(X), color='black', lw=2)
return None